Latent Dirichlet allocation
#研究
テキストのtopic modelingのためのprobabilisticな生成モデル
帰納的バイアス:文書が複数のトピックから生成され、Dirichlet分布に従う
これはつまり、文書のトピックに関して、均等に含んでいるのではなく偏っているとみなす。
https://scrapbox.io/files/65397fa46b2747001c2659b6.png
1. トピックの数を$ Kとして指定
2. 各トピック$ k に対し、単語の確率分布$ \phi_kを生成する。これは、Dirichlet分布からのサンプリングによって得られる。
3. 各文書$ dに対し、トピックの混合比$ \theta_dを生成する。これも、Dirichlet分布からのサンプリングによって得られる。
4. 文書$ dの各単語$ wに対し、以下を実行
トピック$ zを文書のトピックの混合比$ \theta_dから選ぶ。
トピック$ zの単語の分布$ \phi_zから単語$ wを選ぶ
https://scrapbox.io/files/6539830de7b852001ceb2364.png
トピックが2つ、wordの数が3だとする。document, topicは3次元で表現される。
3軸があるが、2次元座標系の平面上として考える(潜在変数化)
この時、点間の距離は2次元上でEuclid距離として測るべきか? -> よくないきがする
参考
https://qiita.com/K_Noguchi/items/2f0579ca51f5329a4008